「どんなデータを扱っているのか?」、「 多重共線性 はどうなっているのか?」、といった事のチェックとして、 全ての変数の組み合わせについて、相関分析が役に立ちます。
たくさんの変数の組み合わせについて、とりあえず片っ端からチェックする方法として、 相関係数 を表にしてまとめる方法があります。 この表は相関行列と呼ばれます。
相関行列は、 多変量解析 のいろいろな手法の中間的な計算で、よく使われています。
相関行列には、負の値がありますが、それは正にして、ある値よりも小さい場合は0とみなす事にすれば、相関関係をネットワークのグラフで表現できるようになります。 相関行列で数字の羅列を眺めるよりも、グラフにした方がわかりやすい事があります。
こういったアプローチは、「グラフィカルモデリング」と呼ばれます。
ちなみに、このページのグラフィカルモデリングは、辺が相関係数で、頂点が変数名です。
グラフィカルモデリングでは、辺(エッジ)と頂点(ノード)を何にするのかで、様々な事を表現できます。
ネットワークの書き方と描き方
が参考になります。
Rによる変数の類似度の分析 のページには、相関係数のグラフィカルモデリングをRでする時のコードがあります。
擬似相関 を知っていると、 相関係数を使う相関行列の代わりに、 偏相関行列 を使いたくなります。
しかし、偏相関行列の計算には弱点があるので、実務向きではありません。 実務的には相関係数の方がロバストな解析になり、便利です。
グラフィカルラッソ は、 スパースモデリング の考えを取り入れたグラフィカルモデリングの一種です。 グラフィカルラッソなら、 偏相関行列の分析でやりたいたいと思っていたことができます。
順路 次は 偏相関係数
Tweet